شناسایی موجودیت های همانند در وب داده

thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان
author ساره آقایی
adviser محمدعلی نعمت بخش
Number of pages: First 15 pages
publication year 1390

abstract

وب داده به منظور ایجاد وب قابل فهم برای ماشین ها معرفی شده است که اتصالات معنادار بین موجودیت ها از ویژگی های اصلی آن است. یکی از مهم ترین اتصالات معنادار در وب داده، اتصالات همانندی است که بین موجودیت های همانند ایجاد می شود. شناسایی و اتصال موجودیت هایی که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند، موجب می شود عامل ها و پویشگرها بتوانند با پیمایش وب اطلاعات بیشتری در مورد موجودیت ها استخراج نمایند. مسأله پژوهشی در این تحقیق شناسایی و اتصال موجودیت های همانند در وب داده است. هدف از این تحقیق، ارائه یک مدل به منظور شناسایی و اتصال موجودیت های همانند در وب داده است به گونه ای که این مدل بتواند با شناسایی صحیح موجودیت ها و اتصال آن ها به یکدیگر، جستجو و استخراج دانش از کل منابع موجود در وب را بهبود بخشد. مدل پیشنهادی شامل چهار ماژول اصلی است: ماژول همتراز سازی آنتولوژی ها، ماژول فیلتر گذاری، ماژول محاسبه درجه تشابه و ماژول کلاس بندی. مدل پیشنهادی قابل به کارگیری روی مجموعه داده های مختلف با آنتولوژی ها و فرهنگ لغات متفاوت و همچنین مستقل از دامنه ی مجموعه داده ها است. انتشار تشابه مقادیر ویژگی های متناظر موجودیت ها روی یکدیگر در گراف و استفاده از الگوریتم k نزدیک ترین همسایه از ویژگی های اصلی در مدل پیشنهادی است. مدل پیشنهادی پیاده سازی شده است و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور شناسایی فیلم های همانند و دو مجموعه داده sider و drugbank به منظور شناسایی داروهای همانند ارزیابی شده است. پس از مقایسه نتایج به دست آمده با نتایج ابزار silk، مشخص شد دقت شناسایی مدل پیشنهادی در مقایسه با ابزار silk بهبود قابل ملاحظه ای دارد.

Already have an account?login

similar resources

رفع اختلاف مقادیر داده ای میان موجودیت های همانند در وب داده ها

وب داده های پیوندی به سرعت در حال گسترش می باشد و در حال حاضر شامل داده هایی از صدها مجموعه داده ی متفاوت می باشد. کیفیت داده های این مجموعه داده ها بسیار متغیر است، به طوریکه ممکن است این داده ها قدیمی، ناقص و یا نادرست باشند. از طرف دیگر امکان دارد مجموعه داده ها اطلاعات متناقضی درمورد یک موجودیت واحد در جهان واقعی ارائه کنند. به منظور استفاده ی برنامه های کاربردی داده های پیوندی از این فضای...

15 صفحه اول

رتبه بندی موجودیت در وب داده

امروزه، موتورهای جستجو به یکی از برنامه های کاربردی بسیار مهمِ وب تبدیل شده اند که هدف آن ها کمک به کاربر در جهت یافتن اطلاعات است. موتورهای جستجو همچون گوگل و یاهو کلمات کلیدی کاربر را دریافت می کنند و در صفحات وب بر اساس الگوریتم های از قبل تعریف شده به دنبال کلمات کلیدی وارد شده می گردند. سپس صفحات بازیابی شده را بر اساس الگوریتم رتبه بندی، مرتب و به کاربر نشان می دهند. با ظهور فناوری وب مع...

15 صفحه اول

خوشه بندی موجودیت ها در داده های پیوندی

وب معنایی شامل قرار دادن داده ها روی وب و ساختن ارتباطات به گونه ای است که انسان و ماشین بتوانند محتوای وب داده را کاوش نمایند. هدف وب معنایی افزایش توانایی ماشین ها در دسترسی به منابع موجود در وب، پردازش و بکارگیری آن ها می باشد. با توجه به رشد گسترده ی داده های پیوندی و افزایش مجموعه داده ها در چند سال اخیر، نیاز به ابزاری برای کشف پیوند در مقیاس وسیع احساس می شود. ابزارهای کنونی برای کشف پیو...

15 صفحه اول

طراحی فیزیکی پایگاه داده های آماربرداری جنگل های شمال بر اساس مدل داده موجودیت ـ رابطه (entity – relationship)

مبنای اصلی تمامی طرح های جنگل داری و برنامه ریزی برای مدیریت جنگل های شمال، آماربرداری هایی هستند که بر اساس روش تصادفی سیستماتیک در این جنگل ها انجام می گیرد. اما متأسفانه سیستمی کارآمد و انعطاف پذیر برای تجزیه و تحلیل و پردازش این حجم عظیم اطلاعات آماربرداری که توسط سازمان جنگل ها و مراتع کشور جمع آوری می شود، وجود ندارد. بنابراین یک نیاز ضروری برای سازماندهی این داده ها و اطلاعات و ارائه آنه...

full text

طراحی فیزیکی پایگاه داده‌های آماربرداری جنگل‌های شمال‌ بر اساس مدل داده موجودیت ـ رابطه (Entity – relationship)

مبنای اصلی تمامی طرح‌های جنگل‌داری و برنامه‌ریزی برای مدیریت جنگل‌های شمال، آماربرداری‌هایی هستند که بر اساس روش تصادفی سیستماتیک در این جنگل‌ها انجام می‌گیرد. اما متأسفانه سیستمی کارآمد و انعطاف‌پذیر برای تجزیه و تحلیل و پردازش این حجم عظیم اطلاعات آماربرداری که توسط سازمان جنگل‌ها و مراتع کشور جمع‌آوری می‌شود، وجود ندارد. بنابراین یک نیاز ضروری برای سازماندهی این داده‌ها و اطلاعات و ارائه آنه...

full text

سیستم شناسایی موجودیت های نامدار در متون فارسی

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش ...

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان

Keywords

وب داده اتصال همانندی انتشار تشابه الگوریتم k نزدیکترین همسایه

Hosted on Doprax cloud platform doprax.com